摘要
参加 2024 河南高考,豆包和文心 4.0 过了一本线,但比 GPT-4o 还差点。
今天的大模型,智力水平到底如何?
2024 年高考陆续出分,我们想要解开这个过去一年普罗大众一直争论不休的话题。高考是衡量人类智力和学识水平的标尺之一,以今天大模型的水准,参加高考到底是能轻松考上清华北大,还是连上大专都够呛。
我们邀请了九个大模型参加这场考试——包括公认大模型能力天花板的 GPT-4o,以及四个国内大厂(百度、阿里、腾讯、字节)和四个新锐独角兽(百川、智谱、月之暗面和 MiniMax)的公开模型产品。
他们考试的题目是覆盖地域众多、难度最高的新课标 Ⅰ 卷,这也是高考大省河南使用的考卷。我们也将以河南的分数线评判,这九个大模型考生在中国最卷的高考大省,到底能上几本。
有意思的是,这份考卷的作文题目也和 AI 相关,为大模型的作文打分的北京市级骨干教师、怀柔区语文学科带头人夏老师,以前有过多次参加全国高考语文阅卷的经历,但她也直言,「当了多年语文老师,今年是第一次看到 Al 写作的文章。」
好消息是人类没有一败涂地,坏消息是几个大模型大概能上个一本了,而几年前 AI 甚至还做不出小学生的题目。
01 挑战高考,大模型能上几本?后面会有很多有趣的答题细节展示。但在观看结果之前,首先让我们花一点时间简单描述一下这次大模型高考测试的方法:
考题:
使用 2024 年高考难度最高的新课标 Ⅰ 卷,也是高考大省河南省使用的全套考题。
考生名单:
GPT-4o(OpenAI)、豆包(字节跳动)、文心 4.0(百度)、百小应(百川智能)、通义千问 2.5(阿里巴巴)、Kimi 智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱 AI)以及海螺 AI(MiniMax)
测试方法:
鉴于大模型回答问题存在一定随机性,测试团队对所有科目进行2轮测试,取平均分。公式的输入:采用 Markdown/latex 格式。对图像问题;如模型可识别图片,输入图片与文字;如模型无法识别图片,则只输入文字。判分方式与人类考生统一标准:选择题和填空题只看最终结果,不考虑模型解题过程是否准确;多选题如提交错误答案为零分,如提交部分正确答案,则按相应比例给分;解答题由测试团队参考标准答案,按照解题步骤算分。语文作文由测试团队特邀学科老师打分,打分过程对AI产品做匿名处理。委托专业的 AI 数据服务商进行统一规范测试截图,所有测试均通过各款大模型产品的 PC 端官网公开入口完成操作。考试结果如下图所示,整体来看大模型在文科的表现更加优异,最高分可以达到 562 分(GPT-4o),相比之下理科成绩不尽如人意,最高只有 478.5 分,而且基本所有大模型的理科成绩都要比文科总成绩低了 70-80 分。
根据今天公布的河南高考分数线,最高分的 GPT-4o 可以在国内最「卷」的河南超过一本线 41 分,豆包 542.5 分的文科成绩也稳稳超过一本线,紧随其后的是 537.5 分的文心 4.0,以及正好卡到文科一本录取分数线 521 分的百小应。
对于河南高考理科 511 分的一本线,表现最好的文心 4.0 仍然有超过 30 分的差距,但从测试结果来看,大模型目前的智力水平找个二本的理科专业已经绰绰有余。
具体科目来看,英语是大模型表现最优异的学科,九个大模型的平均分高达 132 分(满分 150),大部分大模型都可以做到客观题接近满分,而只在作文少量失分,这也是大模型表现最接近的学科。其次是语文,但不论中外大模型语文的得分都要略差于英语。
相比于语言类学科,大模型的数理学科表现明显差距很大,不论数学还是理综的物化生都是不及格,基本只能做对少量一部分客观题,比较大模型的理科成绩优劣没有太多的参考意义。
相比理科,博闻强记的大模型的文科成绩颇为亮眼。譬如 GPT-4o、字节豆包大模型、文心 4.0、百川 4.0,在历史、政治两大学科都能达到 80 分左右的水准,而 GPT-4o 答出的 237 分文综,在考生里已经可以达到中上的水平。
那么具体每个学科大模型的表现如何?让我们先从高考第一门的语文开始说起。
02 语文:很好的作文写手,但没有心在语文考试里,大模型的客观题答分依然不错,包括 GPT-4o 这个外国考生在内基本都是满分,差距也主要体现在写作上。
这次考试的作文题目是这样的:
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。
先说好的方面,18 篇文章中有 11 篇超过了 48 分,平均分在 46.8 分左右——非常高了。阅卷的夏老师曾多次参加全国高考语文阅卷,她对 18 篇作文的整体评价是——大模型的写作能力已经超过学生的平均水平。你可以在文章里看到清晰的论述框架和逻辑,并且行文流畅鲜有语病。
「木心曾言:「人生在于体会,今时哪及昔时?」在科技蓬勃发展的当今社会,我们借助互联网与人工智能,似乎能迅速解答许多问题。然而,这是否意味着我们面临的问题会越来越少呢?恰恰相反,我认为,在知识易得的今天,我们反而会有「